home *** CD-ROM | disk | FTP | other *** search
/ InfoMagic Internet Tools 1995 April / Internet Tools.iso / infoserv / www / cern / dev / www-talk.9301-9306.Z / www-talk.9301-9306 / text0133.txt < prev    next >
Encoding:
Text File  |  1995-04-24  |  11.7 KB  |  321 lines

  1.  
  2. I have printed off the recent discussion on the new
  3. HTTP, HTML and MIMe and UDIs and done what I can
  4. to disentangle it all in my mind.  I will reply
  5. in one message, becase many of the points are linked.
  6. I know this should be hypertext, with references but
  7. (a) I am away from home and (b) we don't yet have a
  8. universal mail/news archive server running to link to.
  9.  
  10.     HTTP and HTML
  11.  
  12. First of all, Jean-Francois <jfg@dxcern.cern.ch>
  13. points out very properly that the enhaced HTTP
  14. protocol and the enhanced HTML spec are quite
  15. separate things, and should be specified separatedly.
  16. I agree wholeheartdly about all this, and
  17. I aplogize for muddling the levels up till now.
  18.  
  19. (As a small aside, I would point out that wheras a
  20. HTERR file is not very useful, a HTFWD file IS.
  21. It is like a hypertex soft link. But I am happy to
  22. leave that as a separate type of file. It should
  23. certainly get a different extension so that it gets a
  24. different icon)
  25.  
  26.         HTTP: SGML vs ASN/1
  27.  
  28. Let's look at the HTTP protocol first. Carl <barker@cernnext.cern.ch>
  29. is mapping out  the requirements for this, and assuming that SGML
  30. would be a reasonable representation for it in practice.
  31. And so it is.  When the requirements are clear,
  32. it would certainly be interesting to look at mapping them
  33. onto a z39.50 - style ASN/1 implementation. This would
  34. be useful for two reasons. First, the comparison would
  35. point out to us things in z39.50 which we might not have thought of
  36. which would b useful for HTTP. Second, the comparison might give
  37. a nice short or at least well-defined things which the WAIS
  38. guys might like to take into account in the next version
  39. of their protocol.  (I demod W3 to Brewster who hadn't
  40. seen it before live, and was very keen that WAIS and W3
  41. should merge, changing the WAIS protocol if necessary.
  42.  
  43. There is no reason why we shouldn't try both protocols.
  44. If they map well onto each other, its just a question
  45. of having two separate prasers at the low level, building
  46. the same internal structures.
  47.  
  48. When we're talking about an SGML representation,
  49. and describe a file to come later down the link,
  50. I don't think we have to use the NOTATION= attribute with a notation
  51. type, because we won't in fact be talking about
  52. the notation of an SGML element.
  53. The format in this case is not something which the SGML
  54. parse is aware of.
  55.  
  56. I must admit I was disappointed to learn that SGML
  57. didn't allow for any way of including 8 bit data. Thanks Eric
  58. <enag@ifi.uio.np> for your explanations.
  59.  
  60.  
  61.     MIME and SGML
  62.  
  63. Dan <connolly@pixel.convex.com> rightly points out
  64. the relevance of the coming MIME standards. There
  65. are several things which we must separate here, though:
  66.  
  67.    1. The MIME classification of data formats
  68.    2. The MIME format for multi-part messages
  69.    3. The MIME format for rich text.
  70.    4. The MIME formal for external document addresses (MIME UDIs)
  71.  
  72. 1. MIME classification of data formats
  73.  
  74.     We must do the same disentangling job which JF did
  75.     on HTML to MIME.
  76.  
  77.     First of all, the MIME job of classifying data formats
  78.     is a useful job which is ideally done by just one
  79.     bunch of people. Ther has been some suggestion that
  80.     the MIME classifications are not well enough defined,
  81.     but they seem to be the best effort yet and one can only
  82.     assume they will eveolve in the right direction. So I'd
  83.     back the use of these for W3.
  84.  
  85.  
  86. 2. The MIME format for multi-part messages
  87.  
  88.     This is necessary for sending a multi-part
  89.     document over a mail link.  We have to ask ourselves
  90.     whether it is reasonable to use over a binary link.
  91.     Personally, my initial impression is that the MIME
  92.     stuff, using as it does terminators such as
  93.     --xxx-- separated by blank lines, looks more horrible
  94.     to work with in this respect than SGML! Still we have
  95.     the problem of restrictions on the content:
  96.     Must not contain delimiters, limited 7 bit character set,
  97.     line orientation, in fact all the things which email
  98.     carries as a restriction.  This is really taking on board
  99.     a legacy of all the mail which has evolved over the years.
  100.     Do we need that for our new ultra-fast hypertext access
  101.     protocol?
  102.  
  103.     [Compare the MIME format with the rather cleaner NeXT
  104.     Mail format which is as far as I understand simply
  105.     a uuencoded compressed tar file of all the bits, where
  106.     uuencoding is designed as an optimal way of getting over
  107.     mail transport restrictions, compress does what it says
  108.     and tar is a multipart wrapper designed for that only. Not
  109.     standard outside unix, perhaps, but cleaner in that the
  110.     mail formatting is done at the last minute and doesn't
  111.     affect the other operations]
  112.  
  113.     If course, with HTTP2, multipart/alternative shouldn't
  114.     be needed.
  115.  
  116.   Multipart for hypetext?
  117.  
  118.     Now, Dan not only suggests the use of this for
  119.     multipart messages, but also suggests that a hypetext
  120.     document shoudl necessarily contain many parts,
  121.     one on SGML and one for each link as a MIME external document.
  122.     This means that an SGML hypertext document can never stand
  123.     on its own! An SGML parser will always need to have
  124.     a MIME parser sitting just outside.  I don't like
  125.     this: I feel we have to separate these two things.
  126.  
  127.     Suppose that an SGML document does want to
  128.     be sent in a MIME message and does want to
  129.     refer to other parts of that MIME message. In that case,
  130.     it seems reasonable to have a format for that.
  131.     However, when an SGML document is seen by itself, and
  132.     refers to a news message for example, then there is
  133.     no resaon for it not to be able to contain a
  134.     complete reference within itself.
  135.  
  136.     When SGML documents include other files, then
  137.     the SYSTEM value is typically a file name.
  138.     It is a reeference to something outside. The
  139.     precedent is set that SGML documents are allowed
  140.     to refer to things outside.
  141.  
  142.     I think part of you objection, Dan is based on 
  143.     a dislike of the UDI syntax -- which I'll come to later.
  144.   
  145. 3. The MIME format for rich text.
  146.  
  147.     Here, I am not so impressed.  Basically, the MIME
  148.     people are at the same level that we were before we started
  149.     this cleanup, that they have SGML-LIKE stuff which isn't SGML.
  150.     As its not difficult to make it SGML, they should do that.
  151.     Comparing MIME's rich text and HTML, I see that
  152.     we lack the characetr formatting attributes BOLD and ITALIC
  153.     but on the other hand I feel that our treatment of
  154.     logical heading levels and other structures is much more powerful
  155.     and has turned out to provide more flexible formatting    
  156.     on different platforms than explicit semi-references
  157.     to font sizes.  This is born out by all the systems which
  158.     use named styles in preference to explicit formatting,
  159.     LaTeX or other macros instead of TeX, etc etc.
  160.  
  161.     So technically, HTML has some things to give MIME's rich
  162.     text. Are the MIME people still open to additions?
  163.     If not, I would suggest we add BOLD and ITALIC (or
  164.     two emphasis styles for characters), and keep HTML
  165.     separete from MIME's rich text, proposing it as a
  166.     MIME text standard.
  167.     (HP0 and HP1 were in the HTML spec but as unimplemented)
  168.   
  169. 4. The MIME format for external document addresses (MIME UDIs)
  170.  
  171.     As Ed <emv@msen.com> says, this is a bit of a non-issue,
  172.     as MIME addersses and currnet style UDIs map onto
  173.     each other. However, we have to agree on a "concrete
  174.     syntax" (or two... :-) in the end.
  175.  
  176.     It's like the difference between an x400 style mail address
  177.     generated from an internet address, and that internet address.
  178.     Which do you prefer
  179.  
  180.         timbl@zippy.lcs.mit.edu
  181.  
  182.     where the sections of the domain name are defined
  183.     to have no semantics at all, or
  184.  
  185.         S=timbl; HO=zippy; OU=lcs; O=MIT; SECTOR=edu
  186.  
  187.     (this is not real x400 - don't use it!) or
  188.  
  189.         user=timbl
  190.         host=zippy
  191.         group=lcs
  192.         organization=mit
  193.         sector=education
  194.  
  195.     You say, Dan, that you "don't think [UDIs] work".
  196.     Do you mean people don't use them in all correspondance?
  197.     Well, what DO they use? They use ange-ftp addresses    
  198.     for FTP (like info.cern.ch:/pub/www/doc/*.ps),
  199.     which are even more terse than UDIs! They use news
  200.     message-ids which are UDIs.
  201.  
  202.     Let me say that I personally don't much care about the
  203.     arbitrary punctuation. There are a few things, though,
  204.     which are important:
  205.  
  206.     -  The thing should be printable 7-bit ASCII.
  207.  
  208.        Unlike arbitrary document formats,
  209.        UDIs must be sendable in the mail
  210.  
  211.     - White space should not be significant. I would
  212.       accept the presence of some arbitrary white space
  213.       as a delimiter, but one cannot distinguish between
  214.       different forms and quantities of white space.
  215.       This is because things get wrapped and unwrapped.
  216.  
  217.       Dan, you object to UDIs because they don't
  218.       contain white space. But that is purely so that
  219.       to CAN wrap them onto several lines and still
  220.       recuperate them.  You can put white space
  221.       in but it shouldn't mean anything. (This is not possible
  222.       in W3 as is but it is in the UDI document)
  223.  
  224.       I don't see why you say they
  225.       can't be put as an SGML attribute. They are just
  226.       text strings. They will be quoted of course
  227.       (Yes, I know the old NeXT browser doesn't quote them)
  228.       Is that not allowed? What are the problem characters?
  229.       If there SGML problem characters in the UDI spec, they
  230.       probably are ruled out of SGML for a reason.
  231.  
  232.       (I recently saw in a galley proof of an article in which
  233.       our mail adress had been hypernated! UDIs must be
  234.           squeezable into 2 inch columns.)
  235.  
  236.         There is a sematic difference between a tagged
  237.     list and a punctuation-divided set, and that is that
  238.     the former has defined semantics but the latter doesn't and
  239.     can therefore be extended more easily.  I suggest that tagging
  240.     could be used for the four bits of an address
  241.     that must be separable by all sides, which are
  242.     limited in number (4). Within those bits, the string should
  243.     be transparent as the protocol does not require
  244.     every party to understand the innards. 
  245.  
  246.     The bits are
  247.             MIME        Used by
  248.  
  249.     name space:    ACCESS        Used by client
  250.  
  251.     server details:    HOST, PORT    used by client, protocol-dependent
  252.     
  253.     local doc id:    PATH        used by server only
  254.  
  255.     anchor id:     (none)        used by presntation application only
  256.  
  257.     It seems useful to maintain the ability to work out which
  258.     bits are seen by whom.
  259.  
  260.     I only used punctation to separate these parts in the W3 UDI
  261.     because people like internet addresses and mail addresses
  262.     and filenames and telephone numbers and message-ids and
  263.     room numbers and zip codes which don't have tags and
  264.     do make do with punctuation.  If the groundswell of
  265.     opionion on this list is that tags are better, then
  266.     let's use tags!
  267.  
  268.     Whatever we sue, it should be as quotable in an SGML
  269.     attribute as in a MIME external reference as in a
  270.     scribbled note or a link-pasteboard or whatever.
  271.     (The U is for Universal, NOT Unique!)
  272.  
  273. PHILOSOPHY
  274.  
  275.     In the W3 world, the model is of a dynamic world of
  276.     documents which generally have some "home" or
  277.     (or several), which can be found using sufficient
  278.     intelligence and the help of ones friends given the UDI.
  279.  
  280.     A mail message has no home, and so in principle the parts
  281.     of it have no home. When a hypertext multipart message
  282.     (really consisting of multiple hypertext documents)
  283.     has links between its parts they refer to each other
  284.     within a completely isolated conetext.
  285.  
  286.     There are now two possibilites when the message is in fact
  287.     archived and made readable. One is we say that the parts
  288.     are then addressed as parts ofthe message, wherever it
  289.     may be. The other is to say that the parts of the message
  290.     are very likely things which had some original home.
  291.     In that case, the message is just giving the reciever
  292.     a copy to save him the (perhaps insurmountable) trouble
  293.     of retrieving it.  In this case the parts should be
  294.     identified with thier original UDIs so that the
  295.     receiver is not confsed with multiple documents which
  296.     are in fact the same thing. 
  297.     
  298.  
  299. I think that's all the comments I have on what I've read so far..
  300.  
  301.     Tim
  302. ________________________________________________________________
  303. Tim Berners-Lee
  304. World-Wide Web initiative
  305. CERN, 1211 Geneva 23, Switzerland        timbl@info.cern.ch
  306. Visiting MIT: NE43-513, (617)234 6016    timbl@zippy.lcs.mit.edu
  307.  
  308.  
  309.  
  310.  
  311.  
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318.  
  319.  
  320.  
  321.